<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1">
	<title>原形词干提取 | Elasticsearch: 权威指南 | Elastic</title>
    <!-- Give IE8 a fighting chance -->
    <!--[if lt IE 9]>
    <script src="https://oss.maxcdn.com/html5shiv/3.7.2/html5shiv.min.js"></script>
    <script src="https://oss.maxcdn.com/respond/1.4.2/respond.min.js"></script>
    <![endif]-->
	<link rel="stylesheet" type="text/css" href="../static/styles.css" />
</head>
<body>
<div class="main-container">
    <section id="content">
        
        <div class="content-wrapper">
            <section id="guide" lang="zh_cn">
                <div class="container">
                    <div class="row">
                        <div class="col-xs-12 col-sm-8 col-md-8 guide-section">
                            <div style="color:gray; word-break: break-all; font-size:12px;">原文地址: <a href="https://www.elastic.co/guide/cn/elasticsearch/guide/current/stemming-in-situ.html" rel="nofollow">https://www.elastic.co/guide/cn/elasticsearch/guide/current/stemming-in-situ.html</a>, 版权归 www.elastic.co 所有<br/>
                            英文版地址: <a href="https://www.elastic.co/guide/en/elasticsearch/guide/current/stemming-in-situ.html" rel="nofollow">https://www.elastic.co/guide/en/elasticsearch/guide/current/stemming-in-situ.html</a>
                            </div>
                        <!-- start body -->
                  <div class="page_header">
<b>请注意:</b><br>本书基于 Elasticsearch 2.x 版本，有些内容可能已经过时。
</div>
<div id="content">
<div class="breadcrumbs">
<span class="breadcrumb-link"><a href="index.html">Elasticsearch: 权威指南</a></span>
»
<span class="breadcrumb-link"><a href="languages.html">处理人类语言</a></span>
»
<span class="breadcrumb-link"><a href="stemming.html">将单词还原为词根</a></span>
»
<span class="breadcrumb-node">原形词干提取</span>
</div>
<div class="navheader">
<span class="prev">
<a href="controlling-stemming.html">« 控制词干提取</a>
</span>
<span class="next">
<a href="stopwords.html">停用词: 性能与精度 »</a>
</span>
</div>
<div class="section">
<div class="titlepage"><div><div>
<h2 class="title">
<a id="stemming-in-situ"></a>原形词干提取<a class="edit_me edit_me_private" rel="nofollow" title="Editing on GitHub is available to Elastic" href="https://github.com/elasticsearch-cn/elasticsearch-definitive-guide/edit/cn/230_Stemming/60_Stemming_in_situ.asciidoc">edit</a>
</h2>
</div></div></div>
<p>为了完整地 完成本章的内容，我们将讲解如何将已提取词干的词和原词索引到同一个字段中。举个例子，分析句子 <em>The quick foxes jumped</em> 将会得到以下词项：</p>
<div class="pre_wrapper lang-text">
<pre class="programlisting prettyprint lang-text">Pos 1: (the)
Pos 2: (quick)
Pos 3: (foxes,fox) <a id="CO164-1"></a><i class="conum" data-value="1"></i>
Pos 4: (jumped,jump) <a id="CO164-2"></a><i class="conum" data-value="1"></i></pre>
</div>
<div class="calloutlist">
<table border="0" summary="Callout list">
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO164-1"><i class="conum" data-value="1"></i></a><a href="#CO164-2"></a></p>
</td>
<td align="left" valign="top">
<p>已提取词干的形式和未提取词干的形式位于相同的位置。</p>
</td>
</tr>
</table>
</div>
<p>Warning：使用此方法前请先阅读 <a class="xref" href="stemming-in-situ.html#stemming-in-situ-good-idea" title="原形词干提取是个好主意吗">原形词干提取是个好主意吗</a> 。</p>
<p>为了归档词干提取出的 <em>原形</em> ，我们将使用 <a href="http://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-keyword-repeat-tokenfilter.html" class="ulink" target="_top"><code class="literal">keyword_repeat</code></a> 过滤器，跟 <code class="literal">keyword_marker</code> 过滤器 ( see <a class="xref" href="controlling-stemming.html#preventing-stemming" title="阻止词干提取">阻止词干提取</a> ) 一样，它把每一个词项都标记为关键词，以防止后续词干提取器对其修改。但是，它依然会在相同位置上重复词项，并且这个重复的词项 <span class="strong strong"><strong>是</strong></span> 提取的词干。</p>
<p>单独使用 <code class="literal">keyword_repeat</code> token 过滤器将得到以下结果：</p>
<div class="pre_wrapper lang-text">
<pre class="programlisting prettyprint lang-text">Pos 1: (the,the) <a id="CO165-1"></a><i class="conum" data-value="1"></i>
Pos 2: (quick,quick) <a id="CO165-2"></a><i class="conum" data-value="1"></i>
Pos 3: (foxes,fox)
Pos 4: (jumped,jump)</pre>
</div>
<div class="calloutlist">
<table border="0" summary="Callout list">
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO165-1"><i class="conum" data-value="1"></i></a><a href="#CO165-2"></a></p>
</td>
<td align="left" valign="top">
<p>提取词干前后的形式一样，所以只是不必要的重复。</p>
</td>
</tr>
</table>
</div>
<p>为了防止提取和未提取词干形式相同的词项中的无意义重复，我们增加了组合的 <a href="https://www.elastic.co/guide/en/elasticsearch/reference/5.6/analysis-unique-tokenfilter.html" class="ulink" target="_top"><code class="literal">unique</code></a> 语汇单元过滤器  ：</p>
<div class="pre_wrapper lang-json">
<pre class="programlisting prettyprint lang-json">PUT /my_index
{
  "settings": {
    "analysis": {
      "filter": {
        "unique_stem": {
          "type": "unique",
          "only_on_same_position": true <a id="CO166-1"></a><i class="conum" data-value="1"></i>
        }
      },
      "analyzer": {
        "in_situ": {
          "tokenizer": "standard",
          "filter": [
            "lowercase",
            "keyword_repeat", <a id="CO166-2"></a><i class="conum" data-value="2"></i>
            "porter_stem",
            "unique_stem" <a id="CO166-3"></a><i class="conum" data-value="3"></i>
          ]
        }
      }
    }
  }
}</pre>
</div>
<div class="calloutlist">
<table border="0" summary="Callout list">
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO166-1"><i class="conum" data-value="1"></i></a></p>
</td>
<td align="left" valign="top">
<p>设置 <code class="literal">unique</code> 类型语汇单元过滤器，是为了只有当重复语汇单元出现在相同位置时，移除它们。</p>
</td>
</tr>
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO166-2"><i class="conum" data-value="2"></i></a></p>
</td>
<td align="left" valign="top">
<p>语汇单元过滤器必须出现在词干提取器之前。</p>
</td>
</tr>
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO166-3"><i class="conum" data-value="3"></i></a></p>
</td>
<td align="left" valign="top">
<p><code class="literal">unique_stem</code> 过滤器是在词干提取器完成之后移除重复词项。</p>
</td>
</tr>
</table>
</div>
<div class="section">
<div class="titlepage"><div><div>
<h3 class="title">
<a id="stemming-in-situ-good-idea"></a>原形词干提取是个好主意吗<a class="edit_me edit_me_private" rel="nofollow" title="Editing on GitHub is available to Elastic" href="https://github.com/elasticsearch-cn/elasticsearch-definitive-guide/edit/cn/230_Stemming/60_Stemming_in_situ.asciidoc">edit</a>
</h3>
</div></div></div>
<p>用户喜欢 <em>原形</em> 词干提取这个主意：“如果我可以只用一个组合字段，为什么还要分别存一个未提取词干和已提取词干的字段呢？” 但这是一个好主意吗？答案一直都是否定的。因为有两个问题：</p>
<p>第一个问题是无法区分精准匹配和非精准匹配。本章中，我们看到了多义词经常会被展开成相同的词干词：<code class="literal">organs</code> 和 <code class="literal">organization</code> 都会被提取为 <code class="literal">organ</code> 。</p>
<p>在 <a class="xref" href="using-language-analyzers.html" title="使用语言分析器">使用语言分析器</a> 我们展示了如何整合一个已提取词干属性的查询(为了增加召回率)和一个未提取词干属性的查询（为了提升相关度）。 当提取和未提取词干的属性相互独立时，单个属性的贡献可以通过给其中一个属性增加boost值来优化(参见 <a class="xref" href="multi-query-strings.html#prioritising-clauses" title="语句的优先级">语句的优先级</a> )。相反地，如果已提取和未提取词干的形式置于同一个属性，就没有办法来优化搜索结果了。</p>
<p>第二个问题是，必须搞清楚  相关度分值是如何计算的。在 <a class="xref" href="relevance-intro.html" title="什么是相关性?">什么是相关性?</a> 我们解释了部分计算依赖于逆向文档频率（IDF）—— 即一个词在索引库的所有文档中出现的频繁程度。 在一个包含文本 <code class="literal">jump jumped jumps</code> 的文档上使用原形词干提取，将得到下列词项：</p>
<div class="pre_wrapper lang-text">
<pre class="programlisting prettyprint lang-text">Pos 1: (jump)
Pos 2: (jumped,jump)
Pos 3: (jumps,jump)</pre>
</div>
<p><code class="literal">jumped</code> 和 <code class="literal">jumps</code> 各出现一次，所以有正确的IDF值；<code class="literal">jump</code> 出现了3次，作为一个搜索词项，与其他未提取词干的形式相比，这明显降低了它的IDF值。</p>
<p>基于这些原因，我们不推荐使用原形词干提取。</p>
</div>

</div>
<div class="navfooter">
<span class="prev">
<a href="controlling-stemming.html">« 控制词干提取</a>
</span>
<span class="next">
<a href="stopwords.html">停用词: 性能与精度 »</a>
</span>
</div>
</div>

                  <!-- end body -->
                        </div>
                        <div class="col-xs-12 col-sm-4 col-md-4" id="right_col">
                        
                        </div>
                    </div>
                </div>
            </section>
        </div>
    </section>
</div>
<script src="../static/cn.js"></script>
</body>
</html>